stable diffusion 2.0 - BTCC 熱門知識

stable diffusion 2.0 加密貨幣是什麼以太坊 Defi 比特幣交易所 solana dApp

什么是stable diffusion 2.0?

言归正传，Stable Diffusion 2.0还包括一个高阶Diffusion模型——Upscaler Diffusion模型，可以将图像分辨率提高4倍。左图：128x128 低分辨率图像。右图：Upscaler 生成的 512x512 分辨率图像有了Upscaler Diffusion的加持，Stable Diffusion 2.0与以前的文本到图像模型结合使用时，可以生成分辨率为2048×2048或更高的图像。与此同时，团队采用了一种新的深度引导 (depth-guided)稳定扩散模型——depth2img。它扩展了 V1版本中的图像到图像特性，为创造性应用提供了全新的可能性。

什么是stable-diffusion-2-depth?

stable-diffusion-2-depth 是也是在SD 2.0的512x512版本上finetune的模型，它是额外增加了图像的深度图作为condition，这里是直接将深度图下采样8x，然后和nosiy latent拼接在一起送入UNet模型中。深度图可以作为一种结构控制，下图展示了加入深度图后生成的图像效果：你可以调用diffusers库中的 StableDiffusionDepth2ImgPipeline 来实现基于深度图控制的文生图：

如何验证stable diffusion 模型的训练性能?

为了验证 Stable Diffusion 模型的训练性能，我们使用 Google Conceptual Caption 数据集复现了 Stable Diffusion 的训练。 Google Conceptual Caption 是一个相对小范围的多模态数据集，其中有 285 万“图像 - 文本”对。该数据集已集成在幻方 AI 的数据集仓库中，转化为 ffrecord 训练数据格式存储在 3FS 高速存储里。用户可以通过如下方式调取获得高速的训练数据读取：

全球領先的加密貨幣交易平台

獲取迎新禮

推薦

最新活動

什么是stable diffusion 2.0?

什么是stable-diffusion-2-depth?

如何验证stable diffusion 模型的训练性能?

相關文章

全球領先的加密貨幣交易平台

收集資料